Classification/Régionalisation

Cours Géoprisme 2024

Claude Grasland

2024-05-13

Objectif

On commence par charger un jeu de données comportant plusieurs variables qui vont servir à construire une ou plusieurs matrices de dissimilarités. Dans l’exemple qui va suivre, on a choisit de prendre les deux principales listes d’extrêmes droite :

  • X1 : % de votes pour Jordan Bardella (RN)
  • X2 : % de votes pour Marion Marechal Le Pen (Reconquête)
Tableau de données
code nom X1 X2
44 ACAL 38.3 5.5
75 AQUI 30.9 5.0
84 AURA 30.9 5.6
27 BOFC 37.1 5.3
53 BRET 25.6 4.2
24 CVDL 34.9 5.4
11 IDF 18.8 5.7
76 OCCI 33.7 5.5
32 NOPI 42.4 4.6
28 NORM 35.3 4.6
52 PDL 27.6 4.7
93 PACA 38.6 7.7

A. Classification

Dans cette première partie on va essayer de regrouper les unités spatiales en trois classes sans s’occuper de leur position spatiale.

Variables non standardisées

Variance

On remarque immédiatement que les deux variables ont des moyennes et des variances différentes :

Paramètres principaux (non standardisés)
X1 X2
32.9 5.3
18.8 4.2
42.4 7.7
6.5 0.9
42.7 0.8
98.2 1.8

Positions

La variance des scores de la variable X1 (Bardella) est beaucoup plus forte que celle de la variable X2 (Marechal), ce qui signifie que si l’on s’en tient aux variables brutes, les différences entre régions seront liées essentiellement aux variations de la liste X1 :

Dissimilarités

Les distances euclidiennes entre les points sont donc dépendantes pour l’essentielle des résultat du score de Bardella (X1) et très peu de celui de Marion Maréchal (X2). C’est ce que montre bien la distance de dissimilarité associée :

Dissimilarité en distance euclidienne non standardisée
ACAL AQUI AURA BOFC BRET CVDL IDF OCCI NOPI NORM PDL PACA
ACAL 0.0 7.4 7.4 1.3 12.8 3.4 19.5 4.6 4.2 3.1 10.7 2.2
AQUI 7.4 0.0 0.6 6.2 5.4 4.0 12.2 2.8 11.5 4.4 3.3 8.2
AURA 7.4 0.6 0.0 6.2 5.5 4.0 12.1 2.8 11.5 4.5 3.4 8.0
BOFC 1.3 6.2 6.2 0.0 11.6 2.2 18.3 3.4 5.4 1.9 9.5 2.9
BRET 12.8 5.4 5.5 11.6 0.0 9.4 6.9 8.2 16.8 9.8 2.1 13.5
CVDL 3.4 4.0 4.0 2.2 9.4 0.0 16.2 1.3 7.5 0.9 7.3 4.4
IDF 19.5 12.2 12.1 18.3 6.9 16.2 0.0 14.9 23.6 16.6 8.9 20.0
OCCI 4.6 2.8 2.8 3.4 8.2 1.3 14.9 0.0 8.8 1.9 6.1 5.4
NOPI 4.2 11.5 11.5 5.4 16.8 7.5 23.6 8.8 0.0 7.1 14.8 4.9
NORM 3.1 4.4 4.5 1.9 9.8 0.9 16.6 1.9 7.1 0.0 7.7 4.5
PDL 10.7 3.3 3.4 9.5 2.1 7.3 8.9 6.1 14.8 7.7 0.0 11.4
PACA 2.2 8.2 8.0 2.9 13.5 4.4 20.0 5.4 4.9 4.5 11.4 0.0

Classification

Une classification ascendante hiérarchique utilisant la méthode de Ward aboutira alors à un résultat qui est à peu près identique à celui qu’on aurait obtenu en découpant uniquement selon la variable Bardella X1.

Variables standardisées

Supposons maintenant que nous reprenions la même analyse mais en utilisant des variables standardisées dont on ramène la moyenne à 0 et l’écart-type à 1

Variance

Désormais les deux variables ont une même moyenne et une même variances. Elles vont donc jouer un rôle équivalent dans la classification.

Paramètres principaux (standardisés)
X1_std X2_std
moy 0.0 0.0
min −2.2 −1.2
max 1.5 2.7
std 1.0 1.0
var 1.0 1.0
varpct 50.0 50.0

Positions

Désormais ce n’est plus la région Ile-de-France qui fait figure de région exceptionnelle mais plutôt la région PACA en raison du score exceptionnellement élevé de la liste Maréchal.

Dissimilarités

Les distances euclidiennes entre les points sont donc désormais aussi dépendante du score de Bardella que celui de Maréchal en raison de la standardisation. Les très fortes dissimilarités concernent donc autant l’Ile-de-France (score exceptionnellement bas de Bardella) que la région PACA (score exceptionnellement haut de Maréchal)

Dissimilarité en distance euclidienne standardisée
ACAL AQUI AURA BOFC BRET CVDL IDF OCCI NOPI NORM PDL PACA
ACAL 0.0 1.3 1.1 0.3 2.4 0.5 3.0 0.7 1.2 1.1 1.9 2.5
AQUI 1.3 0.0 0.7 1.0 1.2 0.8 2.0 0.7 1.8 0.8 0.6 3.3
AURA 1.1 0.7 0.0 1.0 1.7 0.6 1.9 0.4 2.1 1.3 1.1 2.7
BOFC 0.3 1.0 1.0 0.0 2.1 0.4 2.8 0.6 1.1 0.8 1.6 2.7
BRET 2.4 1.2 1.7 2.1 0.0 2.0 1.9 1.9 2.6 1.6 0.6 4.4
CVDL 0.5 0.8 0.6 0.4 2.0 0.0 2.5 0.2 1.5 0.9 1.4 2.6
IDF 3.0 2.0 1.9 2.8 1.9 2.5 0.0 2.3 3.8 2.8 1.7 3.8
OCCI 0.7 0.7 0.4 0.6 1.9 0.2 2.3 0.0 1.7 1.0 1.3 2.6
NOPI 1.2 1.8 2.1 1.1 2.6 1.5 3.8 1.7 0.0 1.1 2.3 3.6
NORM 1.1 0.8 1.3 0.8 1.6 0.9 2.8 1.0 1.1 0.0 1.2 3.5
PDL 1.9 0.6 1.1 1.6 0.6 1.4 1.7 1.3 2.3 1.2 0.0 3.8
PACA 2.5 3.3 2.7 2.7 4.4 2.6 3.8 2.6 3.6 3.5 3.8 0.0

Classification

La classification ascendante hiérarchique va désormais donner un résultat différent en isolant à la fois la région PACA (fort vote Bardella et Maréchal) et la région Ile de France (faible vote Bardella mais fort vote Maréchal)

Discussion

Faut-il standardiser ?

  • Tout dépend de l’objectif !
  • Si on veut conserver les effets de masse (poids réel des partis) il ne faut pas standardiser
  • Si l’on veut analyser la diversité des votes (variété des comportements), il faut au contraire standardiser pour accorder le même poids à toute les listes.

Avons nous régionalisé ?

  • Non, même si la classification a produit des regroupements de régions proches.
  • Pour régionaliser, il faut introduire des contraintes spatiales qui interdisent l’apparition de classes disjointes.

Régionalisation = classificiation sous contrainte

  • Lorsque nous avons effectué une classification, nous avons autorisé le regroupement de n’importe quelle unité avec n’importe quelle autre.
  • Dans le cas d’une régionalisation, nous allons limiter les choix en n’autorisant que des regroupements entre régions voisines.

Regionalisation

Nous allons maintenant procéder à une régionalisation en nous limitant à une méthode très simple (skater) qui est basée sur la théorie des graphes et plus précisément sur le concept d’arbre couvrant minimal (minimum spanning tree).

Le graphe de voisinage

Le graphe de voisinage (\(G^{vois}\)) est une réduction du graphe complet (\(G^{tot}\)) utilisé lors de la classification pour regrouper les unités spatiales.

Graphe de voisinage pondéré

On procède à une pondération du graphe de voisinage par la dissimilarité qui sépare deux entités voisines. On peut considérer ceci comme un coût de mise en relation de deux unités différentes. On voit que le coût le plus fort est entre NOPI et IDF, le coût le plus faible entre ACAL et BOFC.

Arbre couvrant minimum (théorie)

En théorie des graphes, étant donné un graphe non orienté connexe dont les arêtes sont pondérées, un arbre couvrant minimum (ACM),de ce graphe est un arbre couvrant (sous-ensemble qui est un arbre et qui connecte tous les sommets ensemble) dont la somme des poids des arêtes est minimale (c’est-à-dire de poids inférieur ou égal à celui de tous les autres arbres couvrants du graphe).

L’arbre couvrant minimum peut s’interpréter de différentes manières selon ce que représente le graphe. De manière générale si on considère un réseau où un ensemble d’objets doivent être reliés entre eux (par exemple un réseau électrique et des habitations), l’arbre couvrant minimum est la façon de construire un tel réseau en minimisant un coût représenté par le poids des arêtes (par exemple la longueur totale de câble utilisée pour construire un réseau électrique).

Source Wikipedia France

Arbre couvrant minimal : source Wikipedia, France

Arbre couvrant minimum (application)

Si on applique cette méthode à notre graphe, on obtient un arbre (en rouge) qui permet de relier toutes les unités spatiales en évitant les plus fortes dissimilarités entre voisins. A titre d’exemple, IDF est relié à CVDL qui est son voisin le moins différent.

La méthode SKATER

La méthode SKATER (Spatial C(K)luster Analysis by Tree Edge Removal) consiste d’une manière générale à découper l’arbre couvrant minimum au niveau des arêtes les plus dissemblables. Les deux premières étapes vont logiquement isoler PACA (très fort vote Maréchal) puis IDF (très faible vote Bardella).

La méthode SKATER

Les étapes suivantes voient se détacher les régions de l’Ouest (faible vote Bardella et Maréchal) puis les régions du Nord-Ouest (fort vote Bardella mais faible vote Maréchal)

Qualité de la régionalisation

Quelle est la qualité des différentes régionalisations obtenue ? Comme dans une analyse de variance on peut décomposer les différences en variation intra-régionale et inter-régionale. La qualité d’une régionalisation est donc la part des variations inter-régionales dans la variation totale.

Dans notre exemple on voit que la part de variation interne diminue rapidement lorsqu’on sépare les deux régions exceptionnelles PACA et IDF du reste de la France. La partition en 3 classes résumé donc déjà 63% des différences.

En passant à 4 puis 5 classes, on arrive à une partition qui résume 80 à 90% des différences de vote pour les listes d’extrême droite

Variations intra et inter-régionales
nbreg varint varext vartot
1.0 100.0 0.0 100.0
2.0 60.4 39.6 100.0
3.0 36.8 63.2 100.0
4.0 18.2 81.8 100.0
5.0 9.9 90.1 100.0

Profil des régions

Comme dans une classification, on peut termine le travail par un examen du profil des régions obtenues.

Discussion

Avantage de la régionalisation / classification

  • La régionalisation fait émerger des régions homogènes c’est-à-dire des groupes d’entités ressemblantes et voisines.
  • la régionalisation implique une analyse géographique alors que la classification adopte une perspective statistique.

Inconvénients de la régionalisation / classification

  • A nombre égal de classes, la qualité du résumé offert par une régionalisation est toujours inférieur ou égal à celui d’une classification.
  • En l’absence d’autocorrélation spatiale positive, la régionalisation est inefficace et peu conduire à des regroupements absurdes.

Diversité des algorithmes de régionalisation

  • la définition du voisinage par la présence d’une frontière commune n’est pas la seule manière de définir les proximités qui servent de contrainte à la régionalisation.
  • la méthode SKATER est un algorithme parmi d’autres pour chercher des groupes d’unités spatiales formant des régions homogènes.
  • comme dans le cas de la classification, le choix des variables, de leur standardisation et de leur transformation en matrice de similarité implique des choix précis.